https://adcloud.compbio.ulaval.ca/index.php/s/SdDrKrkbq9QHCLn

1 Partie 1

Pour les protéines, miRNA et gènes, on possède les données de 150 échantillons. On a ensuite 142 variables pour les protéines, 184 pour les miRNA et 200 pour les gènes.

1.1 Analyse variation

On peut voir sur les histogrammes que le type de données possédant le plus de variabilité est le type protéine. En effet, sa variabilité est comprise entre -100 et 250, même si on peut observer qu'elle est comme les autres centrée vers 0.

1.2 Nettoyage des données

Il nous reste 142 protéines, 174 gènes et 82 miRNA.

1.3 Gène le plus variable

Le gène avec le plus grand coefficient de variance de notre jeu de données est PLCD4. La protéine codée par ce gène peut jouer un rôle dans la croissance et la prolifération cellulaire. Son expression peut donc notamment être un marqueur de cancer. PLCD4 est situé sur le chromosome 2, et sa longueur est de 30749 nucléotides. La protéine correspondant à ce gène est Q9BRC7, d'une longueur de 762 nucléotides, mais n'est pas contenue dans notre jeu de données.

2 Partie 2

2.1 1. Single-omic: l’ACP avec mixOmics

## Eigenvalues for the first 10 principal components, see object$sdev^2: 
##         PC1         PC2         PC3         PC4         PC5         PC6 
## 4601.980533   46.705472   21.519114   12.661752    9.796326    8.634070 
##         PC7         PC8         PC9        PC10 
##    7.445820    6.180146    5.062428    4.265798 
## 
## Proportion of explained variance for the first 10 principal components, see object$explained_variance: 
##         PC1         PC2         PC3         PC4         PC5         PC6 
## 0.956078087 0.009703231 0.004470674 0.002630525 0.002035222 0.001793759 
##         PC7         PC8         PC9        PC10 
## 0.001546896 0.001283948 0.001051738 0.000886235 
## 
## Cumulative proportion explained variance for the first 10 principal components, see object$cum.var: 
##       PC1       PC2       PC3       PC4       PC5       PC6       PC7       PC8 
## 0.9560781 0.9657813 0.9702520 0.9728825 0.9749177 0.9767115 0.9782584 0.9795423 
##       PC9      PC10 
## 0.9805941 0.9814803 
## 
##  Other available components: 
##  -------------------- 
##  loading vectors: see object$rotation

Au vu de l'histogramme:

  • Une seule composante explique la majorité de la variabilité.
  • Il peut être intéressant de centrer-réduire les données pour mieux dégager la variabilité des données.
## Eigenvalues for the first 10 principal components, see object$sdev^2: 
##       PC1       PC2       PC3       PC4       PC5       PC6       PC7       PC8 
## 33.720079 23.308702  9.887708  8.601462  7.448849  5.701675  4.198577  3.765421 
##       PC9      PC10 
##  3.265814  3.045500 
## 
## Proportion of explained variance for the first 10 principal components, see object$explained_variance: 
##        PC1        PC2        PC3        PC4        PC5        PC6        PC7 
## 0.19379356 0.13395806 0.05682591 0.04943369 0.04280948 0.03276825 0.02412975 
##        PC8        PC9       PC10 
## 0.02164035 0.01876904 0.01750288 
## 
## Cumulative proportion explained variance for the first 10 principal components, see object$cum.var: 
##       PC1       PC2       PC3       PC4       PC5       PC6       PC7       PC8 
## 0.1937936 0.3277516 0.3845775 0.4340112 0.4768207 0.5095889 0.5337187 0.5553590 
##       PC9      PC10 
## 0.5741281 0.5916310 
## 
##  Other available components: 
##  -------------------- 
##  loading vectors: see object$rotation

##       PC1       PC2       PC3       PC4       PC5       PC6       PC7       PC8 
## 0.1937936 0.3277516 0.3845775 0.4340112 0.4768207 0.5095889 0.5337187 0.5553590 
##       PC9      PC10      PC11      PC12      PC13      PC14      PC15      PC16 
## 0.5741281 0.5916310 0.6081779 0.6244353 0.6385943 0.6513538 0.6638612 0.6761106 
##      PC17      PC18      PC19      PC20      PC21      PC22      PC23      PC24 
## 0.6879322 0.6989173 0.7097864 0.7199659 0.7299126 0.7390624 0.7481000 0.7567805 
##      PC25      PC26      PC27      PC28      PC29      PC30      PC31      PC32 
## 0.7650352 0.7729230 0.7806346 0.7882175 0.7952774 0.8018343 0.8082584 0.8145236 
##      PC33      PC34      PC35      PC36      PC37      PC38      PC39      PC40 
## 0.8205177 0.8264586 0.8322492 0.8379899 0.8434759 0.8488578 0.8540964 0.8590180 
##      PC41      PC42      PC43      PC44      PC45      PC46      PC47      PC48 
## 0.8637962 0.8685528 0.8729952 0.8773175 0.8815048 0.8855788 0.8895436 0.8934482 
##      PC49      PC50 
## 0.8972873 0.9008139

Les 30 premières composantes expliquent 80% de la variabilité et elles sont donc sélectionnées.

Les dix variables contribuant le plus à l'axe 1 sont : ZNF552, C4orf34, KDM4B, FUT8, CCNA2, TTC39A, LRIG1, SEMA3C, PREX1, SLC43A3. Les graphiques représentant les variables sont actuellement très difficilement lisibles, on doit donc afficher les contributions des variables aux composantes à l'aide d'une commande.

On peut observer que la PCA sépare de façon assez distincte les individus des trois groupes selon les 2 premières composantes, malgré des frontières assez floues entre les groupes.

Les gènes sélectionnés par la spca pour la première composante sont : KDM4B, ZNF552, PREX1, TTC39A, STC2, LRIG1, C4orf34, MTL5, FUT8, SLC19A2. Pour la seconde composante principale, on a retenu APBB1IP, NCF4, FLI1, C1orf162, CSF1R.

2.2 2.1 Projection on Latent Structures

Les variables retenues pour la troisième composante sont C1QB, Caspase.7_cleavedD198.

Sur la spls, on peut observer 7 clusters différents possédant une corrélation supérieure à 0.65 ou inférieure à -0.65 (3 protéines et 4 gènes).

2.3 2.2 Multiblock Projection on Latent Structures

## Design matrix has changed to include Y; each block will be
##             linked to Y.

Les variables sélectionnées sur la première composante sont:

  • Mrna: CCNA2, ZNF552, FUT8, ASPM, C4orf34, KDM4B, LRIG1, SLC43A3, TTC39A, PREX1
  • Protéine: Cyclin_B1, Cyclin_E1, ER.alpha, GATA3, ASNS, AR, JNK2, CDK1, Chk2
  • Mirna: hsa.mir.17, hsa.mir.20a, hsa.mir.130b, hsa.mir.505, hsa.mir.590, hsa.mir.106a, hsa.mir.9.2

2.4 3. Analyse supervisée : (s)PLS-DA

Par rapport à la PCA, on peut considérer que la PLS-DA permet de mieux retrouver nos trois groupes d'échantillons sur ce graphique par rapport aux deux premières composantes principales. En effet, les trois groupes sont ici clairement distincts dans l'espace du graphique, et les frontières entre groupes sont bien plus marquées. Il semblerait donc que la variabilité des données calculée par la PLS-DA permet de mieux expliquer les différences génétiques entre les groupes de nos échantillons.

2.5 4. Analyse supervisée : block-(s)PLS-DA